Libratus 扑克 AI 击败人类,扑克终结是否临近?

Libratus扑克AI以176万美元击败人类;终结是否临近?
今晚完成了一场惊人的胜利,卡内基梅隆大学Noam Brown等人创建的Libratus扑克AI,在无限注德州扑克中击败了四位人类职业选手。
历史上第一次,扑克界正面临着机器接管德州扑克游戏的未来。
在国际象棋和围棋之后,扑克是否是下一个被计算机“解决”的游戏?人类是否已经结束了玩扑克——至少在击败高级AI方面?
Libratus的巨大胜利会改变我们玩游戏的方式吗?让我们试着回答其中的一些(或全部)问题。
从零到英雄,历时2年
两年前,来自卡内基梅隆大学的一个团队开发了一个计算机程序,目标是击败单挑无限注扑克(一种更复杂的扑克变体)中的最佳选手。
那时,该程序在面对四位职业选手时苦苦挣扎,最终输给了人类对手。
但人工智能的开发人员利用过去的两年时间极大地改进了该程序——他们的改进是杰出的。
重新安排了一场与四位最佳单挑扑克选手的比赛。 进行了120,000手牌(具有统计学意义的样本),结果是人工智能彻底击败了人类选手。
谁在玩?
Dong Kim、Jason Les、Jimmy Chou和Daniel McAulay——四位杰出且经验丰富的扑克选手——代表了人类参加了这次挑战。
Kim是一位非常成功的在线高额投注选手;Les在2015年两次接近WSOP金手链,当时他在WSOP赛事中获得了第二名和第三名;Chou在一年前赢得了亚洲扑克锦标赛,McAulay赢得了数十万美元的在线锦标赛。
最重要的是:所有四位选手都擅长单挑无限注扑克,这是在挑战赛中玩的游戏。
Libratus人工智能由卡内基梅隆大学的一组研究人员开发,由博士生Noam Brown和Tuomas Sandholm领导。 它是Claudico人工智能的衍生产品,Claudico人工智能在两年前输掉了与人类的挑战赛。
减少运气的特殊规则
这次挑战持续了120,000手牌——每位选手30,000手牌——从1月11日到30日进行。 对于每手牌,选手和人工智能从20,000个筹码开始,盲注为50/100。
这确保了每手牌都以200个大盲注的堆叠大小进行——对于单挑扑克来说,堆叠大小相当深,这允许在每手牌中进行充足的策略性行动。
为了减少可能严重影响结果的运气因素,制定了两条特殊规则:
1. 所有手牌都是镜像的。例如:当A选手在一张牌桌上获得对阵人工智能的A对K时,B选手同时获得K,而人工智能则有A。 因此,没有任何一方可以在挑战赛的过程中一路顺风。
2. 没有硬全押。当一手牌在翻牌前就全押时,将不再发牌,每位选手将获得其筹码权益。 如果一位选手在转牌时领先70/30并全押,他将获得底池的70%,而对手则获得30%。 这也减少了运气因素。
结果
经过20天和120,000手牌的比赛,结果令人震惊地明确:Libratus击败了每位选手,并且每手牌的胜率为14.72美元。
这相当于每100手牌14.7个大盲注的胜率——对于人工智能来说,这是一个杰出的结果。 所有四位人类选手在对阵Libratus的30,000手牌中都输了。 这是他们的个人表现:
选手 | 损失 | 每手牌 |
Dong Kim | -85,649美元 | -2.85美元 |
Jimmy Chou | -522,857美元 | -17.43美元 |
Jason Les | -880,087美元 | -29.34美元 |
Daniel McAuley | -277,657美元 | -9.26美元 |
总计 / 平均 | -1,766,250美元 | -14.72美元 |
也许AI只是运气好?
虽然挑战的规则旨在尽可能减少运气因素,但机会在每手牌的结果中仍然扮演着重要角色——即使是镜像手牌,即使消除了全押运气。
所以,也许,只是也许,人类选手实际上更好,但AI只是运气好。 让我们看看关于结果的一些统计数据。
人工智能的胜率为每100手牌14.7个大盲注。 玩了120,000手牌,标准差大约在每100手牌100到200个大盲注之间。
这些只是方差的粗略估计,但正如我们将看到的,它们是很好的界限。 有了这些数字,我们可以使用扑克方差计算器进行一些计算,并回答这个问题:
人类实际上比人工智能玩得更好的概率是多少,但在120,000手牌中以每100手牌14.7个大盲注的速度输掉?
事实证明,这种概率非常低:大约在0.0001%(在标准差的下限情况下)和0.54%(在上限情况下)。
这意味着:这种挑战的总结果——AI比四个人类玩得更好——很可能不是因为AI只是运气好。 没有坏运气。 Libratus AI只是单挑无限注扑克中更好的玩家。
Libratus如何工作?
基本上,Libratus人工智能只是一组定义如何在特定情况下进行游戏的巨大策略。 这种策略的两个例子(不一定与Libratus的实际游戏玩法有关):
如果游戏状态是翻牌前,并且人工智能首先行动并且持有7♦ 4♥,那么它将以50%的概率加注到3个大盲注,以30%的概率加注到5个大盲注,并以20%的概率弃牌。
如果游戏状态是转牌,并且人工智能在翻牌圈已经面对加注后面对加注,并且在低牌面上持有高牌同花顺听牌,那么它将以40%的概率跟注,并以60%的概率全押。
很快就变得明显,人工智能可能遇到的不同情况几乎是无法计数的,而且对于每一种情况,人工智能都有一个策略。
值得注意的是,大多数情况都以混合策略出现,如上所述的两种——有时这样做,有时那样做。 人工智能实际上会掷骰子来决定做什么,但概率和行动是预先计算和平衡的。
策略来源于1000万美元的超级计算机
为了为所有这些情况生成策略,Brown和Sandholm周围的团队使用了一台名为Bridges的超级计算机。
它大约比普通现代台式计算机快30,000倍,运行在274太字节的RAM上,成本为965万美元。
这台计算机连续玩了许多天,积累了数十亿,甚至可能是数万亿的手牌,并随机尝试了各种不同的策略。
每当一种策略奏效时,玩这种策略的可能性就会增加;每当一种策略不起作用时,可能性就会降低。 基本上,生成策略是一次巨大的试错运行。
在Reddit上的一次广泛的AMA中,Brown这样解释了Libratus的学习过程:
“该机器人的基础是使用反事实遗憾最小化的特殊变体的强化学习。 在这次比赛之前,它只和自己玩扑克。 它没有从人类的手牌历史中学习它的策略。”
Libratus为这次挑战做好了充分准备,但学习并没有就此停止。 在与人类对手比赛的每一天,它都会调整其策略以利用它在人类策略中发现的任何弱点,从而增加其优势。
复杂性受到限制
计算机如何击败看似强大的扑克选手?对于大多数玩家来说,扑克是关于解读、勇气、欺骗和直觉的游戏。
计算机没有直觉。 计算机没有任何直觉。
与国际象棋或围棋不同,扑克是一种信息不完整且涉及大量随机性的游戏。 计算机如何在这种游戏中脱颖而出?
首先,人们需要理解的是,虽然扑克是一个非常复杂的游戏——比国际象棋甚至围棋复杂得多——但它的复杂性是有限的。 牌可以洗牌的方式只有那么多,可以玩的不同可区分的游戏也只有那么多。
用数字表示:在单挑限注德州扑克中,大约有316,000,000,000,000,000种不同的游戏情况。 如果你每秒钟玩一个,你需要100亿年才能完成它们。 这就是很多游戏情况。
对于无限注,这个数字要高出几个数量级,因为你可以下注几乎任意大的金额,但事实是不同游戏情况的总数是有限的。
没有勇气;只有完美的策略
对于所有只允许有限数量游戏情况的游戏,存在一个纳什均衡。 纳什均衡是一种策略,它确保使用它的玩家至少不会比使用任何其他策略的玩家表现更差。
用外行人的话来说:玩纳什均衡策略意味着你长期以来不会输给任何其他玩家。 这种均衡的存在是由John Nash在1950年证明的,这一证明为他赢得了诺贝尔经济学奖。
这个纳什均衡意味着:勇气、解读和直觉最终无关紧要。 有完美的扑克策略;我们只需要找到它。
你所需要的只是一台合适的计算机,它可以处理数万亿种不同的情况,在数百万的太字节内存上运行并且速度极快。 然后,你让一群敏锐、聪明的 人类站在它面前,让他们开发一种利用计算能力的方法,你就成功了。
扑克被解决了吗?我们完成了吗?
现在Libratus只是个开始。 人工智能仍然简化了许多不同的扑克情况。
例如,它可能无法区分高王-杰克同花顺听牌和高王-十同花顺听牌。 它可能无法区分下注底池的55%和下注底池的60%。
但Libratus已经接近开发出一种完美的策略——至少足够接近于消灭任何人类对手。 随着时间的推移,甚至比目前为其提供动力的价值965万美元的超级计算机拥有更多的计算能力,Libratus只会提高其性能
可能会出现那些在非单挑游戏中击败任何玩家的人工智能。
其他变体呢?
Libratus在无限注单挑中击败了人类。 两年前,阿尔伯塔大学向世界推出了Cepheus——一款几乎可以玩完美限注单挑策略的机器人。
可以肯定地说,这两种变体实际上已经被解决了。 事实上,来自阿尔伯塔大学的家伙设法证明,他们的机器人距离完美的(即纳什均衡)策略最多只有每100手牌0.05个大注。
虽然无限注机器人Libratus可能离这个完美策略更远,但它迟早会得到改进并更接近它。
其他扑克变体呢? 有两个以上玩家的扑克比单挑复杂几个数量级。 对于像奥马哈这样更难的变体也是如此。
但在计算机世界中,计算能力仍在呈指数增长,“数量级”通常只意味着:“再给它几年时间。”
机器人接管并成为扑克世界真正统治者只是时间问题。
但是像Libratus这样的机器人仍然非常复杂,它在玩游戏时需要直接连接到它巨大的超级计算机。 而且它仍然玩得非常慢。 因此,它没有被用于你的当地赌场或在线游戏的直接危险。
但很快,类似的变体将能够在我们的智能设备上运行。
我们不是已经到了吗?
令人恐惧的事实是:机器人甚至不必玩完美的策略。 他们不必击败最好的选手。
为了产生影响,他们只需要击败普通玩家。 在这方面有坏消息:我们已经到了。
对于几乎任何扑克游戏,已经有一个机器人比平均水平的、体面的 人类玩家玩得更好。 因此,虽然从理论上讲,扑克总体上可能还没有被解决,但它已经被解决到足以让一个体面的机器人击败一个体面的玩家。
当计算机国际象棋被开发出来时,出现了同样的现象。 在1997年深蓝击败卫冕世界冠军加里·卡斯帕罗夫之前几年,计算机就已经击败了大师和大师。
事实上,计算机第一次达到可与大师级别相媲美的ELO评级是在1981年——在人工智能最终击败世界冠军的16年前。
在扑克中,我们现在可能正处于这两个点之间。
这是扑克的终结吗?
随着计算机挑战最好的扑克选手,一个问题迫在眉睫:我们是否面临扑克的终结?答案是双重的,因为人们必须区分现场扑克和在线扑克。
还必须指出的是,扑克行业面临的问题根本不是什么新鲜事。 Libratus的胜利并不是机器人第一次展示它们击败体面人类玩家的能力。
五年前,拉斯维加斯贝拉吉奥赌场安装了一个2/4限注德州扑克机器人,每个人都可以与它对战。 机器人没有收取任何抽成;它只是通过击败玩家来赚钱。
因此,早在五年前,我们就已经面临能够击败普通玩家的机器人了。
在在线扑克中,体面的机器人已经存在了至少八年,所有信誉良好的网站都禁止使用它们。 任何被发现使用它们的玩家都会被没收他们的奖金,并且受影响的玩家会得到补偿。
因此,轰动一时的Libratus胜利并没有改变行业和游戏面临的困难——除了它将焦点集中在扑克人工智能在过去两年取得的显着进步上。
现场扑克不会改变
至于现场扑克,在可预见的未来,情况不会有太大变化。 我们不会开始看到玩家使用智能手机来计算完美的策略。 我们不会在WSOP主赛事期间看到旁观者从栏杆上窃窃私语最佳动作。
一些职业选手当然会使用高度先进的机器人来检查和改进他们自己的策略,并在游戏中变得更好。 但这种情况现在已经发生了。
在接下来的几十年里,即使如此,现场扑克也很可能不会受到机器人的实质性影响。 以同样的方式,数百万的人们仍然玩国际象棋,并渴望观看国际象棋世界锦标赛,尽管无法击败人工智能,我们仍然会看到扑克选手在绿色的毡面上玩牌,争取冠军、荣耀和数百万美元。
在线扑克将不得不发展
另一方面,对于在线扑克,事情看起来有点黯淡。 扑克网站有责任确保扑克在公平的竞争环境中提供。
运营商必须确保人类只能与人类对战。 那些信誉良好的运营商已经在尽最大努力,但当然,如果你足够努力,即使最好的安全措施也总是可能被绕过。
在线扑克现在不会受到扑克被超级计算机接近解决的影响,但为了想象互联网扑克的未来,我们再次只需要转向国际象棋。 没有人在神智清醒的情况下会同意在线玩一笔可观的国际象棋游戏。
可能会也可能被一些无懈可击的人工智能击败。 在线国际象棋是为了好玩? 当然! 为了钱? 绝对不可能!
但在线扑克目前一切都与金钱有关,而且在未来的某个时刻,即使是运营商的最佳安全措施也很可能不再确保一个无机器人的环境。 在线扑克要想不消亡,就必须演变成一种新的形式,这只是时间问题。 我们在这里谈论的不是几十年,而是5-10年。
当被问及Libratus是否意味着在线扑克的终结时,Dong Kim说:“在不久的将来不会,但我们应该担心。 我不是火箭科学家,但我认为任何有计算机的东西都会呈指数增长。
“结局就在附近。 这是一段美好的时光。”
延伸阅读